5П 


УДК 62-50:15 


1 2 1 
Н.Б. Паклин , С.В. Уланов”, С.В. Царьков 

Рязанский филиал МЭСИ, г. Рязань, Россия 
У) > И 

Сарапульский политехнический институт, г. Сарапул, Россия 


риб@тьох.ти 


Построение классификаторов 
на несбалансированных выборках 
на примере кредитного скоринга 


В статье рассмотрена проблема построения эффективных бинарных классификаторов в условиях, когда 
классы сильно несбалансированы. Показана их связь с издержками классификации, рассмотрены стратегии 
борьбы с несбалансированностью и проведены эксперименты на кредитных историях российских банков. 


Введение 


При решении многих практических задач методами машинного обучения ис- 
следователи сталкиваются с тем, что в обучающей выборке присутствует несбаланси- 
рованность классов, то есть классы представлены неравномерно (паба]апсе4 да{азе\). 
В частности, эта проблема актуальна при построении бинарного классификатора при 
решении задачи кредитного скоринга, так как доля «плохих» заемщиков крайне редко 
превышает 15%, а в большинстве случаев находится на уровне 3-6%. Например, при 
построении дерева классифицирующих правил [1] на такой обучающей выборке может 
оказаться, что результирующая модель содержит крайне мало правил или вовсе «пус- 
тое» дерево. 

Несбалансированность классов оборачивается и другими трудностями. Классифи- 
каторы, построенные на основе выборки, в которой репрезентативность классов несба- 
лансирована, имеют в процессе практического использования склонность с большей 
вероятностью относить новые наблюдения к классам, представленным большим числом 
обучающих примеров. Поставленная проблема усложняется существенным различием 
издержек ошибок классификации. 

В случае если неблагонадежный клиент был распознан классификатором как «хо- 
роший», то имеет место ошибка первого рода. Также возникают ситуации, когда благо- 
надежный клиент распознан в качестве «плохого», такая ситуация называется ошибкой 
второго рода. Издержки классификации в каждом случае существенно отличаются. 
Совершенно очевидно, что убыток от выдачи кредита неблагонадежному клиенту во 
много раз превышает упущенную прибыль при отказе «хорошему». То есть самым ин- 
тересным оказывается наименее представленный класс. 

Кредитный скоринг — это не единственная предметная область, где актуальна 
указанная проблема несбалансированности [2]. При обнаружении мошенничеств ме- 
дицинской диагностики также наблюдается несбалансированность классов с сущест- 
венным различием издержек ошибочной классификации. 

Цель данной работы заключалась в анализе существующих подходов к реше- 
нию проблемы создания классификаторов на несбалансированных выборках и их 
апробация на задаче кредитного скоринга, что сегодня очень востребовано в банков- 
ских информационно-аналитических системах. 
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Постановка задачи 


Введем следующие два понятия. Класс, представленный в обучающих данных 
меньшим числом примеров, назовем миноритарным (от англ. ттогйу — меньшинство), 
а представленный большим числом примеров — мажоритарным (от англ. та]огйу — боль- 
шинствоО). 

Как известно, эффективность бинарного классификатора описывается матрицей 
классификации. При этом обычно миноритарный класс принимается за положитель- 
ный (1), а мажоритарный — за отрицательный (0). Тогда матрица будет иметь вид, пока- 
занный на рис. 1. 


Предсказанный класс 
. Класс «+» Класс «>» 
Фактический — — 
АЕ Класс «+» _| Истинноположительный (11) | _Ложноотрицательный (10) 
Класс «— Ложноположительный (01) _ Истинноотрицательный (00) 


Рисунок 1 — Матрица классификации (случай с двумя классами) 


Этой матрице будет соответствовать матрица издержек, которая показывает из- 
держки, связанные со всеми четырьмя возможными исходами Си, Сю, Си и Со. Из- 
держки в случае правильной классификации одинаковы, поэтому величины Си и Со 
полагаются равными 0. Также в силу того, что миноритарный класс представляет боль- 
ший интерес, Си! < Сто. 

Формальная постановка задачи классификации с учетом издержек следующая. 
Пусть имеем задачу построения бинарного классификатора на множестве обучаю- 
щих примеров (Х, у), 1 = 1,..., п, Х‚ — вектор признаков, у — метка класса из множества 
У= {1,2,...„Л}. Кроме этого, предположим, что обучающая выборка была получена из 
множества, распределенного по некоторому вероятностному закону Р(Х, у). Тогда 
целью алгоритма обучения будет построение классификатора й, который делает воз- 
можным правильное распознавание произвольных примеров, распределенных по 
тому же закону с достаточно высокой вероятностью. Аналогично, если неправильное 
распознавание ведет к издержкам (или потерям), то целью обучения будет миними- 
зация полных ожидаемых издержек С»: 


с, = УРХУСИКХ), У), 
(Ху) 
где С(й(Х), у) — функция издержек, выражающая удельные потери на пример (Х, у). 
Таким образом, полные издержки С, представляют собой сумму издержек для всех 
классифицируемых наблюдений. 
Заметим, что в обычной задаче классификации функция издержек С(й(Х), у) рав- 
на | при #(Х) = у и0- в противном случае. Классификаторы такого типа известны как 


минимизаторы ожидаемых издержек. На практике издержки ошибочной классификации 
неодинаковы для различных классов, функция издержек должна быть задана. 

Пусть для классификатора й известна вероятность Ри(р, /) того, что случайно 
выбранный пример относится к классу /, но распознается как г. Тогда ожидаемые из- 
держки классификатора й будут равны: 


(и)=УУ в. СЛ. (1) 


1=Ё /=1 
Следует отметить, что Р.(, /)=Р(И ЛР, где Р(у) — вероятность того, что от- 
дельный пример относится к классу /, а Р, ( 7) — условная вероятность ошибочного 
отнесения примеров класса /] к классу 1. 
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Таким образом, целью задачи классификации с учетом издержек является нахожде- 
ние классификатора, который минимизирует полные издержки на основе уравнения (1). 

В кредитном скоринге часто в качестве выходной переменной большой интерес 
представляет скоринговый балл, А = А(Х), — непрерывное значение, лежащее в проме- 
жутке [0, 1]. Значение А в данном случае можно рассматривать как некоторую оценоч- 
ную вероятность того, что клиент с вектором признаков Х принадлежит к классу 1. 
Результат классификации в таком случае можно изменять путем повышения или пони- 
жения порога отсечения 1. Если ошибка классификации клиента из класса 1 к классу 0 
в г раз важнее (например, если издержки высоки), то, согласно правилу Байеса, мини- 
мальные издержки достигаются при { = (1+г)'. К сожалению, этот способ применим 


лишь для классификаторов, которые на выходе дают возможность варьировать пара- 
метром 1. Например, логистическая регрессия или простой байесовский классификатор. 
А такие эффективные нелинейные методы, как нейронные сети и машины опорных век- 
торов, не обладают этой возможностью. 

В связи с этим были разработаны альтернативные подходы для решения про- 
блемы построения эффективных бинарных классификаторов, основанные на изменении 
пропорций классов целевой переменной в выборке (специальные типы сэмилинга). 


Изменение репрезентативности классов 


Данный подход использует сэмплинг для изменения распределения классов и 
называется восстановлением равновесия (теба]апст2) с целью получения более сба- 
лансированного обучающего множества [3], [4]. К основным методам сэмплинга от- 
носят выборку с дублированием миноритарного класса (оуегзатрИп?) и выборку с 
удалением примеров мажоритарного класса (ипдетзатрИпз). В первой ситуации 
случайным образом выбирается п записей миноритарного класса и их полностью ко- 
пируют, во второй — удаляют А записей мажоритарного класса. 

Возникает вопрос: на сколько конкретно нужно увеличивать число примеров ми- 
норитарного (редкого) класса или удалять из мажоритарного класса? Ответ на этот во- 
прос дает следующее утверждение, связывающее правило Байеса для определения 
оптимального порога и число примеров обоих классов [5]: при использовании в клас- 
сификаторе порога отсечения 0,5 и при условии, что Си = Си! = 0, число примеров ми- 
норитарного класса нужно увеличить в Су / Су раз. 


Данное утверждение позволяет понять, как нужно изменить соотношение при- 
меров в обучающем множестве, чтобы это было равносильно изменению порога от- 
сечения для принятия решения о принадлежности к классу. Можно пойти другим 
путем — уменьшить число записей мажоритарного класса в Со / Си: раз. 

Поясним утверждение на примере. Пусть имеется обучающее множество с кре- 
дитными историями заемщиков, в котором 900 записей о хороших заемщиках и 100 —о 
плохих (редкий класс). Пусть известно, что отношение издержек равно 5:1. Тогда по 
правилу Байеса оптимальным порогом в логистической регрессии будет величина {> 1 / 
(1+5) = 0,167 при условии, что мы не производим изменение баланса классов и за поло- 
жительный исход принимаем плохого клиента. Если мы оставляем порог, равный 0,5, то 
согласно процедуре оуе’тзатрйие необходимо продублировать еще 400 записей, относя- 
щихся к плохим клиентам (общий объем выборки составит 1000 + 400 = 1400 примеров), 
а согласно процедуре ипаегзатрйие — уменьшить число хороших до 900 / 5 = 180 клиен- 
там (общий объем выборки составит 180 - 100 = 280 примеров). 

Помимо основных методов сэмплинга существуют и специальные. Так, главная 
идея одностороннего сэмплинга (опе-$14е затрПпе) заключается в нахождении и по- 
следующем удалении из набора данных таких записей мажоритарного класса, кото- 
рые зашумляют выборку. Для этого проделывают следующие шаги [6]. 
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1. Пусть 5 — исходный набор данных. 

2. Инициализировать поднабор С, содержащий все записи миноритарного класса 
из 5 и одну случайно выбранную записи мажоритарного. 

3. Классифицировать исходный набор данных по правилу одного ближайшего 
соседа, используя примеры из (. 

4. Переместить ошибочно классифицированные примеры в поднабор. 

5. Удалить каждый попавший в С мажоритарный пример 1, для которого най- 
дется такая запись А, что будет справедливо следующее условие: 


а(Х,,Х,)<а(Х,Х,); 
а(Х,,Х,)<а(Х „Х,), 


где АСХЬХ)) — это расстояние между векторами признаков записей Х; и Х,, / - пример 
из миноритарного класса. 

В основе другой процедуры — специальной выборки с дублированием миноритар- 
ного класса (КЮюсизе4 оуегзатрИпе) — лежит алгоритм ЗМОТЕ [7]. Он основан на идее 
генерации некоторого количества искусственных примеров, которые были бы «похо- 
жи» на имеющиеся в миноритарном классе, но при этом не являлись дубликатами. Для 
создания нового примера находят вектор 4 = Х» - Ха, где Хо, Хь — векторы признаков 
«соседних» примеров а и Б из миноритарного класса. Далее из 4 путем умножения каж- 


дого его элемента на случайное число в интервале (0, 1) получают 4. Вектор признаков 


нового примера получается путем сложения векторов Х. и 4. Процедура ЗМОТЕ 
позволяет задавать количество примеров, которое необходимо искусственно сгенериро- 
вать. Степень сходства примеров а и Ь можно регулировать значением К (числом бли- 
жайших соседей). 

Строгих теоретических обоснований эти процедуры не имеют. Предполагается, 
что смещение, внесенное в обучающие данные, позволит алгоритму обучения получить 
модель, которая минимизирует издержки при классификации новых наблюдений. Глав- 
ное преимущество сэмплинга, который изменяет равновесие классов, заключается в 
том, что он не требует модификации алгоритма обучения, является простой процедурой 
и может применяться к любым типам классификаторов. Его использование позволяет 
строить модели, оптимальные с точки зрения издержек классификации. Но есть не- 
достатки. Так, выборка с удалением примеров мажоритарного класса может вызвать 
потерю потенциально полезной информации, которая содержится в исключаемых при- 
мерах. А «клонирование» большого числа одинаковых примеров способно привести к 
переобучению модели, что экспериментально доказано в работах [1-4]. 


Модификация алгоритма обучения 


Здесь производится модификация алгоритма построения классификатора таким 
образом, чтобы он учитывал издержки ошибок классификации. В настоящее время 
для многих алгоритмов существуют такие модификации. Например, при построении 
дерева классифицирующих правил одним из наиболее популярных методов является 
использование информации об издержках неправильной классификации при выборе 
атрибута ветвления в каждом узле строящегося дерева. Одно из расширений алго- 
ритма С4.5 [1] использует для выбора атрибута комбинированный критерий, учиты- 
вающий как приращение информации, так и ошибки издержек классификации. Для 
этого вводится функция, несущая информацию об издержках классификации. Для (- го 


атрибута она определяется как /СЁ, = (.^* г 1 (С, + 1 ‚ где 0<а<1, Д[; - прирост 


информации, связанный с разбиением по К-му атрибуту, С; — издержки, связанные с 
классами, примеры которых участвовали в разбиении. 
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Параметр © позволяет варьировать степенью «стремления» алгоритма к выбору 
атрибутов, с которыми связаны меньшие издержки. Если @ = 0, а [СЁ = 1, то издерж- 
ки не учитываются. Если @ = 1, то имеет место максимальное влияние издержек на 
процесс построения дерева. Регулируя значение данного параметра, исследователь 
добивается оптимальной чувствительности алгоритма к издержкам классификации. 

Все же многие исследователи отдают предпочтение процедурам восстановле- 
ния равновесия, а не модифицированным алгоритмам обучения [1], [3], [4]. Для это- 
го есть несколько причин. Одна из них заключается в том, что не для всех алгоритмов 
машинного обучения разработаны модифицированные варианты, учитывающие из- 
держки ошибок классификации. Другая - в том, что число примеров с доминирую- 
щим классом часто избыточно, и тогда выборка с удалением примеров мажоритар- 
ного класса кажется наиболее привлекательной процедурой. 

Кроме того, издержки ошибок классификации часто неизвестны, что затрудня- 
ет использование методов обучения, чувствительных к издержкам. Если информация 
об издержках отсутствует, то для оценки эффективности бинарного классификатора 
можно использовать такие методы, как графики «чувствительность — специфичность», 
больше известные как ВОС-кривые. 


Экспериментальная часть 


Целью экспериментов являлось исследовать эффективность различных подходов 
к построению кредитных скоринговых моделей в условиях несбалансированности клас- 
сов. Для этого мы использовали два набора данных с реальными кредитными история- 
ми российских банков (их описание приведено в табл. 1), причем одна из них затрагива- 
ет послекризисный период 2008 года, и три изложенных выше подхода: две процедуры 
сэмплинга и алгоритм построения дерева решений С5.0, учитывающий издержки клас- 
сификации. Выборки, полученные при помощи сэмплинга, также подавались на вход 
алгоритма С5.0, но матрица издержек уже не задавалась. 


Таблица 1 — Наборы данных, участвующие в эксперименте 


Характеристика Набор 1 Набор 2 

Банк Российский банк Российский банк 
ТОП-30 

Типы кредитов Потребительский Потребительский 
Период выдачи кредитов 11.2006 — 05.2007 09.2008 — 2009 
Объем множества 4244 944 
Доля «плохих» кредитов 17% 14,5% 
Число переменных 22 14 


Пропорции обучающего и тестового множества составили 75% и 25% соответ- 
ственно. Издержки Сто (за положительный исход принят «плохой» заемщик) брались 
равными поочередно 2, 3, 4, 6, 10, 50. Классификаторы создавались по 10 попыток для 
каждого отношения этих издержек, а результаты усреднялись. Они приведены на рис. 2 
и рис. 3 в виде графиков зависимостей С, от Си! / Сю. 

Их анализ не позволил признать какую-либо одну стратегию обучения выигрыш- 
ной, что совпадает с работой [3]. Тем не менее, на промежутке от «1:4» до «1:10», то 
есть когда отношение издержек ложноотрицательных к ложноположительным ошибкам 
варьируется от 4 до 10, что является типичной ситуацией в кредитном скоринге, лучшие 
результаты показывает алгоритм С5.0, а худшие — процедура ипае’затрИие. С ростом 
Со этот метод отстает от других, делая его использование непригодным уже при Су > 10. 
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Рисунок 2 — Графики зависимостей С, от Со1/С1о для набора № 1 
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Рисунок 3 — Графики зависимостей С, от Со1/Сто для набора № 2 
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Рисунок 4 — Графики полных издержек для различных скоринговых 
алгоритмов в зависимости от отношения издержек, процедура оуе’тзатрИие 


Далее проводились эксперименты, в которых участвовали несколько различных 
алгоритмов классификации (рис. 4 и рис. 5, обозначения: [К / — логистическая регрес- 
сия с порогом округления 0,5; МЁР — многослойный персептрон; ЭМ — машины 
опорных векторов; МВ — простой классификатор Байеса; [ГК2 — логистическая регрес- 
сия с порогом, рассчитанным по правилу Байеса). 

Анализ этих графиков показал, что наиболее стабильные и лучшие результаты (ми- 
нимальное значение С,) обеспечивает логистическая регрессия (обе процедуры сэмплинга), 
а также алгоритм дерева решений С5.0 (процедура иидегхатрйи®). С увеличением отно- 
шения издержек наихудшие результаты демонстрирует метод машин опорных векторов. 
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Рисунок 5 — Графики полных издержек для различных скоринговых 
алгоритмов в зависимости от отношения издержек, процедура ипаег5атрИие 


Выводы 


При решении многих практических задач стандартные алгоритмы машинного 
обучения не позволяют создавать эффективные классификаторы из-за несбалансиро- 
ванных обучающих выборок. 

Главное преимущество метода сэмплинга с восстановлением равновесия классов 
заключается в том, что он не требует модификации алгоритма обучения, является про- 
стой процедурой и может применяться к любым типам классификаторов. 

Показано, что в кредитном скоринге при помощи метода оуегзатрИпе строятся 
эффективные классификаторы, не уступающие другим подходам, которые обеспечивают 
любое соотношение ошибок [ и П рода, а значит, подбор порогового скорингового балла. 

Перспективным представляется исследование и сравнение метода сэмплинга 
ЭМОТЕ для задачи кредитного скоринга. 
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М.Б. Пакл, С.В. Уланов, С.В. Царьков 

Побудова класифкаторив на незбалансованих виб!рках на приклад! кредитного скорингу 

У статт! розглянута проблема побудови ефективних б1нарних класиф\каторв в умовах, коли класи 
сильно незбалансован!. Показаний 1х зв’язок з витратами класифкаци, розглянути стратеги боротьби з 
незбалансованстю та проведен! експерименти на кредитних 1сторлях росйських банк\в. 


М.В. РаЕт, 5.Т. (Лапот, 5.Г. ТзагКоу 

Са$5Шет$ СопзгисНоп Вазе4 оп Пибаапсед Оа{а$е{5 Бу ве Ехатр!е оЁ Сгедй Зсогто 

ТБе агасе 41$с5$е5 фе ргоМет о сопзёасипе е сете Бтагу с1азз1Негз оп ипбаапсе4 дайазе. Соз5 оЁ с1аззса- 
боп апа згайее1ез ю улп фе пибаапсе аге сопз14егед. Ехрегипет оп Фе сгеди ы5юпез оЁВазз1ап БапК$ аге гладе. 
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